Descuento asimétrico en GRPO para RL eficiente SA-AH-GRPO reduce la varianza un 3.6x y mejora la precisión en razonamiento matemático con descuento asimétrico por token. Resultados en GSM8K con Qwen. 2026-06-05 · 2 min